Sélection de variables non supervisée sous contraintes hiérarchiques
نویسندگان
چکیده
Résumé. La sélection des variables a un rôle très important dans la fouille de données lorsqu’un grand nombre de variables est disponible. Ainsi, certaines variables peuvent être peu significatives, corrélées ou non pertinentes. Une méthode de sélection a pour objectif de mesurer la pertinence d’un ensemble utilisant principalement un critère d’évaluation. Nous présentons dans cet article un critère non supervisé permettant de mesurer la pertinence d’un sous-ensemble de variables. Ce dernier repose sur l’utilisation du score Laplacien auquel nous avons ajouté des contraintes hiérarchiques. Travailler dans le cadre non supervisé est un vrai challenge dans ce domaine dû à l’absence des étiquettes de classes. Les résultats obtenus sur plusieurs bases de tests sont très encourageants et prometteurs.
منابع مشابه
Une approche en programmation par contraintes pour la classification non supervisée
Résumé. Dans cet article, nous abordons le problème de classification non supervisée sous contraintes fondé sur la programmation par contraintes (PPC). Nous considérons comme critère d’optimisation la minimisation du diamètre maximal des clusters. Nous proposons un modèle pour cette tâche en PPC et nous montrons aussi l’importance des stratégies de recherche pour améliorer son efficacité. Notre...
متن کاملUn critère d'évaluation pour la sélection de variables
Résumé. Cet article aborde le problème de la sélection de variables dans le cadre de la classification supervisée. Les méthodes de sélection reposent sur un algorithme de recherche et un critère d’évaluation pour mesurer la pertinence des sous-ensembles potentiels de variables. Nous présentons un nouveau critère d’évaluation fondé sur une mesure d’ambigüıté. Cette mesure est fondée sur une comb...
متن کاملUne nouvelle approche pour la sélection de variables basée sur une métrique d'estimation de la qualité
Résumé. La maximisation d’étiquetage (F-max) est une métrique non biaisée d’estimation de la qualité d’une classification non supervisée (clustering) qui favorise les clusters ayant une valeur maximale de F-mesure d’étiquetage. Dans cet article, nous montrons qu’une adaptation de cette métrique dans le cadre de la classification supervisée permet de réaliser une sélection de variables et de cal...
متن کاملVariable selection in model-based clustering: A general variable role modeling
The currently available variable selection procedures in model-based clustering assume that the irrelevant clustering variables are all independent or are all linked with the relevant clustering variables. We propose a more versatile variable selection model which describes three possible roles for each variable: The relevant clustering variables, the irrelevant clustering variables dependent o...
متن کاملCaractérisation automatique des classes découvertes en classification non supervisée
Résumé. Dans cet article, nous proposons une nouvelle approche de classification et de pondération des variables durant un processus d’apprentissage non supervisé. Cette approche est basée sur le modèle des cartes auto-organisatrices. L’apprentissage de ces cartes topologiques est combiné à un mécanisme d’estimation de pertinences des différentes variables sous forme de poids d’influence sur la...
متن کامل